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Введение 


В настоящее время возникает необходимость в разработке программных средств 
автоматической или автоматизированной обработке естественно-языковых (ЕЯ) текстов 
русского языка. Например, при сборе и фильтрации данных из различных источников, 
извлечении знаний, реферировании, аннотировании и т.п. Одним из ключевых этапов 
обработки ЕЯ текстов является синтаксический анализ. 
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К настоящему времени опубликовано множество словарей, описывающих лексико- 
грамматические средства выражения семантико-синтаксических связей в предложении. 
К их числу относятся толково-комбинаторные словари [1], синтаксические словари [2], 
семантические словари [3], словари управления [4]. 

Знания, представленные в этих и подобных им словарях, необходимы при соз- 
дании лингвистических процессоров и других систем, предполагающих выполнение 
семантико-синтаксического анализа текстов. В связи с этим извлечение знаний из текстов 
упомянутых словарей является актуальной задачей, направленной на: развитие методов 
и средств компьютерной лингвистики, создание прикладных систем автоматической 
обработки ЕЯ текстов. 

Потребность в средствах семантико-синтаксического анализа текста, опирающих- 
ся на лингвистические знания, огромна. Основной трудностью на пути их создания яв- 
ляется плохая формализованность языка, отсутствие общедоступных лингвистических 
баз данных и знаний. Одной из важных подсистем модуля семантико-синтаксического 
анализа, способной повысить эффективность его работы, является база данных моделей 
управления (МУ) слов русского языка. 

Цель работы: разработка методики извлечения знаний из лингвистических 
словарей для наполнения базы данных моделей управления слов русского языка. 

Для достижения поставленной цели необходимо решить следующие задачи: раз- 
работать схему использования системы, реализующей базу данных МУ слов русского 
языка при выполнении семантико-синтаксического анализа предложений русского языка; 
выполнить проектирование базы данных МУ; разработать методику автоматизированного 
наполнения базы данных МУ слов русского языка. 


Проектирование базы данных моделей 
управления слов русского языка 


МУ слова — одно из важнейших лексикографических понятий. С помощью МУ 
в комбинаторных словарях пытаются представить одновременно синтаксические и 
семантические валентности слова. Для большинства предикатных слов число семан- 
тических и синтаксических валентностей одинаково и совпадает, соответственно, с 
числом мест в МУ [1]. 

На данный момент даже для английского языка не существует «прикладных 
программ, использующих методы искусственного интеллекта, способных нетривиаль- 
но перерабатывать извлеченные из текста элементы знаний (интерпретировать, обоб- 
щать, выявлять зависимости, прогнозировать и т.п.)» [5]. Такая ситуация обусловлена, 
по-видимому, следующими причинами. 

1. Мало распространены системы лингвистического анализа текста, способные 
интерпретировать отношения ассоциативной связи между словами, то есть извлекать 
знания как некоторые элементы, обладающие внутренней структурой и пригодные для 
нетривиальной смысловой обработки. 

2. Алгоритмы семантического анализа текстов слабоэфективны, из-за низкой 
достоверности автоматически извлекаемых утверждений и фактов, что объясняется 
несовершенством алгоритмов семантического анализа и низким качеством источни- 
ков информации. 

Технология использования моделей управления для анализа ЕЯ текстов применима 
в системах семантико-синтаксического анализа текстовых документов. 
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Предполагаемая схема использования системы, реализующей базу данных МУ слов 
русского языка при выполнении семантико-синтаксическом анализа предложений, пред- 
ставлена на рис. 1. 


Текст 
Г в анализ | —— 
"ОИ, исходного 
предложения 
{—\| Морфологический анализ _ ЕЕ анализ 


аа МУ слов 
= и выделение потенциальных 


Внутреннее 
представление 
данных 


База данных 
моделей управления 


слов русского языка 
Синтез вариантов 


семантико-синтаксической 


интерпретации предложения 


Рисунок 1 — Схема использования базы данных моделей управления слов 
русского языка при семантико-синтаксического анализе предложений 


Анализ предложения начинается с подачи исходного текста в модуль графемати- 
ческого анализа, в задачу которого входят: разделение входного текста на слова, выде- 
ление устойчивых оборотов, не имеющих словоизменительных вариантов, выделение 
дат в цифровых форматах, выделение ФИО (фамилия, имя, отчество), когда имя и от- 
чество написаны инициалами, выделение электронных адресов и т.п. 

Полученные данные подаются в модуль морфологического анализа, где для 
каждого слова определяют множество вариантов интерпретации. Вариант интерпре- 
тации представлен в виде пары — написания леммы и морфологической информации 
словоформы. 

Результаты работы модуля морфологического анализа в виде последовательности 
векторов множеств интерпретаций словоформ, составляющих предложение, подаются на 
вход модуля получения МУ слов и выделения потенциальных предикатов, который об- 
ращается к базе данных МУ слов русского языка. 

По полученным вариантам МУ слов и предикатам модуль синтеза вариантов 
семантико-синтаксической интерпретации предложения генерирует семантико-синта- 
ксические представления предложения в виде деревьев синтаксического подчинения (с 
учетом явления омонимии вариантов представления может быть несколько). 

Исходя из предложенной схемы системы семантико-синтаксического анализа пред- 
ложений русского языка, для обеспечения ее корректной работы каждая запись в раз- 
рабатываемой базе данных МУ должна содержать следующие поля: 

— написание слова с указанием ударения; 

— морфологическая информация; 

—толкование слова; 

— семантический класс; 

—список МУ. 
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Ударение и толкование не являются обязательными элементами, их необходимо 
заполнять для снятия омонимии на морфологическом, синтаксическом и семанти- 
ческом уровнях анализа предложения. 

Каждая МУ представляет собой список валентностных гнезд, для которых ука- 
заны падежи и управляющие ими предлоги. В ряде случаев валентностное гнездо 
может быть заполнено более чем одним актантом. Некоторые из актантов могут быть 
не обязательными. Для хранения МУ будем использовать таблицу со следующими 
полями: 

—номер модели управления; 

— номер валентностного гнезда; 

— номер множества предлогов; 

— номер падежа. 

Такая организация таблицы моделей управления позволяет хранить несколько 
альтернативных вариантов заполнения одного валентностного гнезда в рамках одной 
модели управления. 


Автоматизированное наполнение базы данных моделей 
управлений слов русского языка 


В качестве источников информации для заполнения базы данных можно ис- 
пользовать толково-комбинаторные, синтаксические, семантические словари, словари 
управления. В данной работе в качестве источника информации для заполнения базы 
данных МУ слов русского языка был выбран словарь Розенталя [4], электронная 
версия корого находится в свободном доступе. 

Основу словарной статьи этого словаря составляют: 

— заголовочное слово; 

— местоименные вопросы к заголовочному слову, по которым можно определить 
семантическое значение слова, следовательно, при наличии семантической классифика- 
ции слово можно отнести к определенному семантическому классу; 

— иллюстративные примеры, которые дают информацию о том, с какими сло- 
вами может использоваться заглавное слово, на основе чего можно выделять ус- 
тойчивые словосочетания и ассоциативные связи между словами. 

Необязательным элементом статьи является значение слова. Оно указывается в 
скобках после заголовочного слова или после местоименного вопроса в многозначных 
словах в том случае, если с этим связана форма управляемого слова. Многозначные 
слова приводятся в одной статье, при этом отдельные значения, если с ними связаны 
различные МУ нумеруются, омонимы же приводятся в разных статьях. 

Так, например, для слова подозревать словарная статья выглядит следующим 
образом: 

подозревать кого-л. в чем и о чем. 1. вчем (иметь подозрение против кого-л.). 
Подозревать в обмане. Подозревать в неверности. 2. очем (предполагать, догадываться). 
Дубов и не подозревал о сложных Морозкиных переживаниях (Фадеев). 

Как видно из приведенного примера, структуру каждой словарной статьи обра- 
зуют элементы, расположенные в четкой последовательности, их можно выделить авто- 
матически. Следовательно, из словаря можно извлекать знания, автоматически заполняя 
поля записей базы данных МУ. 
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Методика автоматизированного наполнения базы данных МУ слов русского языка 
состоит в следующем. 

1. Предобработка текста словаря. 

2. Автоматическое заполнение полей «написание слова», «морфологическая ин- 
формация», «толкование слова», «МУ» по словарным статьям предобработанного 
словаря. 

3. Автоматизированное заполнение лингвистом поля «семантический класс» с 
помощью инструментария работы с базой данных МУ слов русского языка. 

Предобработка текста словаря состоит в том, что для каждого многозначного 
слова статья разбивается на несколько статей, количество которых соответствует числу 
значений. Так, для приведенного выше примера в результате предобработки получаем 2 
статьи следующего содержания: 

подозревать в чем (иметь подозрение против кого-л.). Подозревать в обмане. 
Подозревать в неверности. 

подозревать о че м (предполагать, догадываться). Дубов и не подозревал о 
сложных Морозкиных переживаниях (Фадеев). 

Для создания процедуры автоматического заполнения полей «написание слова», 
«морфологическая информация», «толкование слова», «МУ» потребовалось выделить 
ключевые слова МУ (местоименные вопросы, разделители валентностных гнезд, раз- 
делители моделей управления слова), последовательности символов, обозначающие 
начало или окончание определенного элемента словарной статьи, а также сформиро- 
вать правила разделения словарной статьи на отдельные поля. 

Для заполнения поля «семантический класс» разработан инструментарий, поз- 
воляющий также пополнять и редактировать разработанную базу данных МУ слов 
русского языка. В настоящее время нами используется семантическая классификация 
предикатов, разработанная на основе семантической классификации Л.Г. Бабенко [6]. 

Так, для нашего примера слову подозревать в базе данных МУ будут соответ- 
ствовать 2 записи, соответствующие приведенным в таблице 1 данным. 


Таблица 1 — Примеры МУ слова подозревать 


Написание 2 
МИ Толкование слова Семантический класс МУ 
слова 
Предложения, 
ЕО Гл. н. вид иметь подозрение отображающие ситуацию |21- №2 
р неперех. против кого-л. эмоционально-оценочного |2. М(в)6 
отношения 
Предложения, 

Гл. н. ви предполагать отображающие ситуацию 
подозревать о ра . р Е о 2- №(0)6 
неперех. догадываться воображения и 

предположения 


В табл. | столбец «МУ» содержит описание заполнения валентно обусловлен- 
ных ячеек правосторонних актантов. 

Этапы предобработки текста словаря и автоматического заполнения полей при- 
вязаны к формату и структуре словарных статей выбранного словаря-источника, для 
каждого словаря-источника на данном этапе необходима разработка отдельных проце- 
дур обработки словарных статей. После выполнения этих двух этапов получаем данные 
в некотором едином представлении, которое может быть использовано системами се- 
мантико-синтаксического анализа предложений. 
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Выводы 


В данной работе разработана методика извлечения знаний из лингвистических 
словарей для наполнения базы данных моделей управления слов русского языка. В про- 
цессе проектирования базы данных моделей управления слов русского языка указан 
способ ее использования системой семантико-синтаксического анализа, разработана 
структура базы данных. С целью выбора источника для автоматизированного наполне- 
ния базы данных моделей управления слов русского языка рассмотрены тексты не- 
скольких словарей. Разработана методика автоматизированного наполнения базы данных 
моделей управления слов русского языка по тексту выбранного словаря. 

Несмотря на обилие синтаксических, семантических словарей, словарей моделей 
управления, находящихся в электронном виде в открытом доступе, универсального под- 
хода на базе их совместного использования для автоматического наполнения базы 
данных моделей управления слов русского языка не существует, поскольку способы 
словарного представления знаний в имеющихся словарях различны. Это приводит к 
необходимости разработки и распространению стандартов и совместимых лингвистиче- 
ских ресурсов. 

Аппарат моделей управления для описания синтаксиса естественного языка поз- 
воляет повысить точность синтаксического представления и обеспечить фиксирование 
стилистических особенностей. В связи с чем представляется перспективным создание 
программных компонент, поддерживающих предложенную методику автоматического 
формирования множества моделей управления, а метод описания синтаксиса языка с 
помощью аппарата моделей управления дает возможность описывать все языковые 
аспекты (синтаксический, семантический и прагматический) в рамках одной структуры, 
что позволит существенно увеличить скорость анализа текста и повысить его качество. 
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ВЕЗОМЕ 


А.О. Хйигауоу 


Стеапие оГажеавразе о} гоуегпапсе тоае[5 юг Кизяап ога 

А ДдааБазе о{ гоуегпапсе пло4е1$ ог Киз1ап \/ог4$ сап Вер ул ащютайс зетапйс 
ап зутасйс апа[уз1$ ое {ехё. Еза Из тепЕ оЁ па дааБазе тапиаПу 1$ а ите-сопзитие 
ргосе5$ а{ гедиитез айгасипе оЁР ШеШу адиаННеа Ппеи1 6. ТБегеБу, Фе ехфасНоп оЁ Кпо\- 
1едое Нот Ппо5йс ФсНопамез сопаште ооуегпапсе тоде| оЁ \гога$ 15 ап ипроКапЕ ргоет. 
Из зоаНоп звош аПо\ ю пиретепе ап еЙесНуе ргоседиге оЁР ааютаеа НШпе Ше сотгез- 
роп@ те дабаБазе. 

Резрие фе абипдапсе оЁ ауаПаЫе @есфошс уегз1оп$ оЁ зущасйс, зетапйс @сйНопанез 
ап гоуетпапсе то4е]5 @сНопапез, а итуегза| арргоасВ Базе оп ет соттоп зе юг ап 
езба 15 теп{ оР Ваз1ап У’ог4$ соуегпапсе то4е[з даваБазе 4о по{ ех1з6, Бесаизе фе те#о45 
а Ч1сйопагу Кпо\Ледее гергезетаноп ш ауаЙаЫе сНопанез аге Чегет. 

п 5 рарег \е ргорозе а зсНете оЁ зещепсез$ зетапйс ап4 зущасйс апа|уз1$, изшо Пе 
дабаБазе ог Кизап \/ог4$ ооуегпапсе, ап4 4ез1епе Фе зиасвиге оГ дайаБазе ооуегпапсе 
тоде!5. ЕасН ооуеглапсе тоде| 1$ а забсжегоптаноп Нате, уЛфасЬ сопа$ асбапё$ сазез 
ап ргероз!о1п$, а соуеги оР ет. ш а44 оп, Фе тефо4$ оР аиютаей НШпо оЁ Фе 
абаБазе 15 4еуеоре4. ш ог4ег ю рго\ме розз фу ог Чегет пиегргеайоп оЁ угогА апа 
рагйаПу тетоуше тогрВоюзл1са| Ботопуту аз зоигсе юг даёаБбазе НШио # 15 сКВоозеа 
Козепфа!'5 соуегпапсе ФЧсНопагу. 

Озшо оЁ гоуегпапсе то4е[$ аррагайа$ 10 Чезстфе фе зущах оР пайлта! |апопасе таке и 
розз1Ые ю ппргоуе е ассигасу оЁ зущасйс гергезетаноп. СтеаНоп оЁ зоЙУ\’аге сотропеп 
Фаё зиррой Фе ргорозед тейфо4 Юг ащютайсаПу оепегайпо о зе оЁ соуегпапсе то4е[$ 
звоШ@ аПо\\ ю забзапнаПу шсгеазе Ше {ех( апа[у$15 зрее4 ап4 ю ппргоуе Из аиаШу. ТЫ$ 
5120655 ргозреснуйу Фтесйоп$ оЁ Фе зес{е4 зи ез. 


Статья поступила в редакцию 02.11.2012. 
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